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摘 要 : [目的 /意义 ] 对 学 者 画像 研究 进行 梳理 ,为 其 相关 研究 提供 参考 。|[ 方法 “过程 ] 通 过 文献 调研 与 分 析 , 对 学 者 画像 
及 其 相关 概念 进行 辨析 ,归纳 总 结 学 者 画像 的 构建 流程 .关键 技术 以 及 主要 的 应 用 ,并 分 析 目 前 研究 面临 的 挑战 。 
[ 结果 /结论 ] 学 者 画像 的 构建 流程 包含 数据 搜集 、 数 据 预 处 理 、 学 者 标签 构造 与 可 视 化 分 析 , 主 要 实践 应 用 包括 专 


家 推荐 、 学 术 资 源 推 荐 和 科研 能 力 评价 。 
困难 以 及 有 效 评价 机 制 缺 乏 等 挑战 。 
关键 词 : 用 户 画 像 ” 学 者 画像 ”学 术 数据 专家 推荐 
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当前 相关 研究 面临 多 源 数 据 获 取 与 融合 难度 大 、 学 者 画像 动态 更 新 研究 


在 大 数据 时 代 , 用 户 画像 有 丰富 的 数据 资源 和 广 
泛 的 应 用 前 景 ,逐渐 成 为 图 书 情报 领域 的 研究 热点 。 
用 户 画 像 则 在 以 用 户 为 中 心 ,从 多 源 数据 中 抽取 用 户 
丰 同 维度 的 信息 ,生成 一 系列 标签 ,以 刻画 用 户 的 特 
征 sJ 作 为 一 种 描绘 用 户 特征 挖掘 用 户 需求 的 数据 服 


备品 具 , 用 户 画 像 已 经 在 图 书馆 ,电子 商务 .社交 媒体 
和 铬 慧 医疗 等 领域 得 到 广泛 的 应 用 "0 。 而 伴随 学 术 
大 数据 的 飞速 增长 和 不 断 积累 ,如 何 管理 和 分 析 多 源 
看 狼 的 学 术 大 数据 成 为 新 的 挑战 。 学 者 画像 是 一 种 以 
科 鼠 人 员 为 基本 单位 来 组 织 和 管理 学 术 大 数据 的 广 
法 声 不 同 于 一 般 的 用 户 画 像 ,学 者 画像 的 对 象 为 科研 
全 , 间 在 从 海量 的 学 术 数据 中 勾画 出 学 者 全 貌 ,其 在 
学 术 行 为 分 析 、 学 者 推荐 以 及 学 者 评价 等 研究 领域 具 
有 广阔 的 应 用 前 景 。 

学 者 画像 的 重点 是 刻画 不 同学 者 的 特征 属性 ,其 
与 一 般 的 用 户 画 像 在 研究 对 象 数据 来 源 ,技术 方法 以 
及 画像 应 用 等 诸多 方面 都 有 一 定 的 差异 。 当 前 学 者 画 
像 的 相关 研究 ,主要 集中 于 学 者 画像 的 概念 .构建 流 
程 以 及 基于 学 者 画像 的 应 用 研究 。 关 于 学 者 画像 的 构 
建 方法 流程 研究 ,包含 数据 来 源 .学 者 画像 维度 设 
计 外 ,多 源 数据 融合 技术 ”-”、 学 者 标签 的 自动 抽取 六 
以 及 学 者 画像 的 可 视 化 展示 等 内 容 ;基于 学 者 画像 的 
应 用 研究 , 则 有 科研 合作 者 推荐 " .学 者 研究 兴趣 发 


现 " 等。 可见, 学 者 画像 的 研究 已 取得 一 定 的 进展 。 

目前 国内 部 分 学 者 从 宏观 与 微观 等 视角 对 用 户 画 
像 的 概念 .方法 与 技术 、 模 型 及 其 应 用 等 方面 的 相关 研 
究 进行 了 归纳 梳理 "-“ 。 但 关于 学 者 画像 研究 的 综 
述 , 仅 有 吉水 等 ”在 2018 年 从 计算 机 领域 对 学 者 画 
像 相关 的 技术 存在 的 问题 以 及 未 来 的 发 展 方向 进行 
讨论 和 展望 ,缺少 对 于 学 者 画像 的 模型 构建 和 主要 应 
用 的 总 结 。 近 年 来 , 随 着 学 者 画像 研究 的 发 展 ,相关 研 
究 从 数据 来 源 、 模 型 构建 技术 方法 及 其 应 用 领域 等 角 
度 对 学 者 画像 领域 进行 了 进一步 探索 ,提出 了 一 些 新 
的 学 者 画像 模型 和 应 用 方向 。 与 此 同时 ,部 分 研究 对 
学 者 画像 的 概念 起 源 存 有 一 些 争 议 。 因 此 ,本 研究 首 
先 对 学 者 画像 相关 概念 构建 流程 进行 梳理 ,并 总 结 学 
者 画像 的 主要 应 用 方向 以 及 面临 的 挑战 ,同时 对 学 者 
画像 的 未 来 研究 趋势 进行 展望 ,以 期 为 学 者 画像 相关 
研究 提供 参考 。 

为 了 梳理 国内 外 关于 学 者 画像 的 研究 进展 ,本 文 
以 “学 者 画像 “专家 画像 “科研 人 员 画 像 "为 检索 词 
在 知 网 .万 方 和 维普 学 术 数 据 库 中 对 中 文 文献 进行 主 
题 检 索 ,文献 分 类 目录 限定 为 图 书 情报 与 数字 图 书馆 
领域 .计算 机 软件 及 计算 机 应 用 ,检索 时 间 为 2022 年 4 
月 30 日 ;以 “scholar profile” “researcher profile” “ scien- 
tist profile” 为 检索 词 在 Web of Science 核心 库 中 对 英文 
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文献 进行 主题 检索 ,研究 方向 限定 为 Information Sci- 
,检索 时 间 为 
2022 年 4 月 20 日 。 排 除 不 相关 与 重复 的 文献 ,并 对 检 
出 文献 的 参考 文献 进行 回溯 检索 ,最 后 获取 代表 性 的 
54 篇 文献 作为 本 文 综述 的 文献 集 。 基 于 获取 的 文献 ， 
下 文 对 学 者 画像 领域 的 研究 内 容 进行 梳理 分 析 。 


1 学 者 画像 与 用 户 画 像 的 概念 辨析 


目前 部 分 研究 认为 用 户 画 像 的 概念 最 早 是 由 交互 
设计 之 父 A，Cooper 在 其 著作 The inmates are running 
the asylum (1999 年 ) 中 首次 提出 的 。 但 是 A. 
Cooper 在 书 中 并 未 直接 提 及 用 户 画 像 ,与 其 相关 的 原 


文 叙述 为 “A persona is a fictitious ，specific and concrete 


ence Library Science or Computer Science” 


representation of target users”'" 1。 文中 提 及 的 “perso- 

2 是 指 用 一 个 虚构 又 独特 具体 的 用 户 来 代表 目标 用 
he 它 " 通 常 被 译作 “典型 用 户 ” 或 者 “用 户 角 

”Persona 与 很 多 研究 中 使 用 数据 构建 的 精准 用 户 
画像 并 不 是 一 个 概念 ,因此 将 A，Cooper 的 著作 称 为 用 
户 画像 的 起 源 并 不 准确 。 
| 一 个 与 用 户 画 像 起 源 相关 的 概念 是 “user pro- 
A VK 用 户 简 要 ) 。A. Cooper 在 其 著作 Abouit face 3 :the 
ef ials of interaction design(2007 年 ) 中 明确 界定 per- 
sh user profile 是 两 个 完全 不 同 的 设计 工具 |。 
3axter 等 将 user profile 定义 为 用 户 属性 的 详细 说 
职称 经验 .教育 程度 ,关键 任务 .年龄 范围 等 ,是 
关 湛 用 户 非 单 一 的 .详尽 的 特征 集 ” 。User profile 概 
念 党 被 用 于 计算 机 领域 的 信息 过 滤 、 标 签 推荐 系 
统 [ 引 .个 性 化 文档 检索 "等 主题 中 。 总 体 而 言 ,无 论 
是 从 定义 上 还 是 应 用 场景 上 ,User Profile 更 符合 国内 多 
数 用 户 画 像 研究 中 对 于 “用 户 画 像 ” 一 词 的 界定 :基于 海 
量 数据 ,抽取 用 户 信息 并 构造 出 用 户 标签 集合 ” 。 

学 者 画像 属于 用 户 画像 研究 的 一 个 重要 分 文 。 学 

者 画像 的 研究 对 象 为 科研 人 员 , 早 在 2007 年 L. Yao 等 
就 首次 提 到 “其 区 别 于 传统 的 以 手动 输入 方式 建立 用 
户 档案 ,他 们 关注 如 何 通过 整合 不 同类 型 信息 之 间 的 
依赖 关系 ,使 用 统一 的 方法 自动 为 研究 人 员 构 建 画 像 ” 
”之 后 , 范 晓 玉 等 将 科研 人 员 画 像 定 义 为 基于 科研 
人 员 的 社会 属性 .科研 习惯 与 行为 等 信息 ,构建 标签 化 
的 用 户 模型 ”  。 圳 水 等 认为 学 者 画像 是 通过 计算 机 
技术 自动 从 开放 互联 网 中 获取 构建 科研 工作 者 用 户 模 
型 的 各 维度 信息 ,从 而 开展 数据 挖掘 和 应 用 分 析 过 程 ， 
J 专家 推荐 等 具体 应 用 提供 支持 "” 。 与 普 

通 的 用 户 画像 不 同 , 秦 成 大 等 强调 学 者 画像 核心 是 基 


本 信息 提取 、 研 究 兴 趣 发 现 和 学 术 影响 力 评估 。 综 
合 上 述 内 容 可 以 看 出 ,学 者 画像 在 研究 对 象 .数据 来 
源 .构建 模 型 以 及 应 用 等 方面 与 一 般 的 用 户 画 像 存在 
一 定 差 别 。 学 者 画像 主要 针对 科研 工作 者 ,依托 互联 
网 上 各 种 来 源 的 开放 数据 ,使 用 预定 的 规则 或 特定 的 
机 器 学 习 模 型 来 提取 不 同属 性 的 信息 ,通过 整合 不 同 
属性 信息 之 间 的 依赖 关系 ,构建 精准 的 学 者 画像 模型 ， 
为 专家 评价 ,专家 前 选 .专家 推荐 等 应 用 提供 支持 。 由 
于 学 术 数 据 具 有 数据 权威 性 高 数据 规模 大 数据 易 获 
取 等 特点 , 相 比 于 一 般 的 用 户 画 像 而 言 , 学 者 画像 更 加 
精准 ,分 析 也 更 深入 。 


2 学 者 画 像 的 构建 流程 及 涉及 的 关键 
技术 


学 者 画像 构建 方法 与 技术 是 该 领域 的 研究 重点 。 
当前 ,有 不 少 研究 从 不 同 视角 和 不 同 层次 阐述 了 用 户 
画像 的 构建 流程 。 此 类 研究 常 将 用 户 画 像 的 构 
建 流程 总 结 为 搜集 用 户 特 征 数据 、 提 取 用 户 特征 信息 
和 构建 用 户 画 像 模 型 等 步骤 。 学 者 画像 在 数据 来 源 、 
标签 体系 设计 以 及 应 用 等 方面 与 普通 的 用 户 画 像 存 在 
一 定 差异 。 王 锐 杰 将 学 者 画像 构建 流程 总 结 为 数据 信 
息 人 数据 人 处理 层 和 画像 分 析 层 ,其 中 画像 分 析 层 中 的 

息 分 为 基础 维度 和 进 阶 维度 两 类 ” 。 池 雪花 的 研 
究 将 画像 构建 分 为 个 人 信息 描述 .研究 兴趣 标 符 发 现 
和 学 术 影 响 力 预 测 三 部 分 ,并 总 结 了 其 涉及 的 信息 抽 
取 和 文本 分 类 关键 技术 ” 。 范 晓 玉 等 在 完成 学 者 画 
像 的 模型 表示 和 标签 化 提取 后 进行 了 学 者 画像 可 视 化 
研究 ”。 综 合 上 述 学 者 画像 研究 发 现 ,基于 大 数据 的 
学 者 画像 构建 研究 框架 主要 包含 4 个 部 分 ,分 别 为 学 
者 多 源 数据 搜集 .数据 预 处 理 ,学 者 标签 构造 和 学 者 画 
像 可 视 化 展示 , 见 图 1。 

2.1 数据 源 及 数据 搜集 方法 

在 学 术 大 数据 时 代 , 大 型 学 术 数 据 库 .学 术 搜 索引 
获 与 学 术 社 交 媒 体 平台 等 拥有 海量 的 学 者 相关 成 果 、 
行为 等 数据 ,为 学 者 画像 莫 定 了 坚实 的 数据 基础 。 学 
者 画像 的 数据 包含 学 者 个 人 数据 科研 成 果 数 据 、 科 研 
社交 数据 等 不 同类 型 ,这 三 类 数据 的 数据 源 见 表 1。 

学 者 个 人 数据 指 的 是 学 者 的 人 口 统计 学 特征 , 主 
要 包括 姓名 .学历 .单位 机 构 、 职 称 等 数据 。 此 类 数据 
人 百度 百科 、Wikipedia 与 
Aminer 平台 ”等 在 线 网 站 与 学 术 搜索 引擎 ,其 中 Ami- 
ner 平台 是 一 个 以 科研 人 员 科技 文献 ,学术 活动 三 大 
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科研 成 果 数 据 科研 社交 数据 
数据 预 处 理 实体 消 歧 
论文 数据 融合 
学 者 兴趣 属性 科研 能 力 属性 学 者 社交 属性 
兴趣 主题 分 类 科研 从 作 
5 构造 学 者 标签 兴趣 主题 提取 逐年 发 文 量 
CN 兴趣 相似 度 被 引 次 数 和 
评 
柯 建 画像 标签 去 
学 者 画像 
下 = 可视化 展示 
SI 
CN 
> 图 1 学 者 画像 构建 流程 
ve 表 1 学 者 画像 数据 源 
© 数据 类 型 数据 源 采集 方法 
区 。 学 者 个 人 数据 学 者 个 人 主页 .百科 网 站 .Aminer 平台 等 网 络 候 虫 、 人 工 采集 
四 科研 成 果 数 据 知 网 .万 方 、 维 普 、WoS DBLP 等 数据 库 导 出 、 网 络 爬 虫 
© 科研 社交 数据 ResearchGate .Academia .学 者 网 等 网 络 息 虫 


类 数据 为 基础 的 科技 情报 分 析 与 挖掘 平台 ,目前 已 包 
含 8 400 万 科研 人 员 数 据 。 个 人 数据 来 源 广泛 ,数据 
结构 不 一 ,给 数据 的 采集 带 来 较 大 挑战 。 当 前 ,学 者 个 
人 数据 获取 的 主流 方法 主要 包含 两 大 类 ,一 类 是 采用 
规则 的 方法 从 搜索 引擎 返回 的 结果 或 学 者 主页 中 抽取 
画像 所 需 的 姓名 、 机 构 地址 等 信息 所 ; 另 一 类 为 采用 
机 器 学 习 算 法 如 CRF .LSTM 序列 标注 模型 ,对 采集 的 
主页 内 容 进 行 实体 识别 ” 。 然 而 , 现 有 的 基于 机 器 学 
习 的 学 者 主页 自动 识别 技术 无 法 达到 很 高 的 识别 率 ， 
仍 有 部 分 专家 学 者 没有 学 者 主页 或 者 无 法 通过 搜索 引 
擎 找到 其 学 者 主页 ” 。 

科研 成 果 数 据 是 构造 学 者 画像 的 重要 数据 来 源 ， 
主要 包括 学 术 论 文 .专著 ,科研 项 目 和 专利 等 数据 。 科 
研 成 果 数 据 主要 存在 于 各 大 学 术 信息 库 中 , 中文 数据 


来 源 于 国内 的 三 大 电子 文献 数据 库 一 一 知 网 、 万 方 和 
维普 ,外文 数据 来 源 于 Web of science 等 学 术 数 据 
库 “ ,这 些 数据 库 一 般 会 提供 一 些 常 见 格式 的 数据 导 
出 服务 , 当然 也 可 以 使 用 网 络 怜 虫 实现 更 全 面 灵 活 的 
数据 抓 取 。 目 前 互联 网 上 有 许多 数字 图 书馆 以 及 学 术 
搜索 引擎 ,例如 : DBLP ( Digital Bibliography & Library 
Project) 、CiteSeerx .ACM 、Google scholar 等 也 可 作为 科 
研 成 果 数 据 的 补充 。 此 外 还 有 存储 国家 自然 科学 基金 
项 目 和 国家 社会 科学 基金 项 目 等 项 目 信息 的 相关 数据 
库 ,保存 专利 数据 的 中 国 专 利 数 据 库 等 。 

学 术科 研 社交 数据 是 科研 人 员 在 使 用 一 些 学 术 社 
交 网 站 时 产生 的 关注 、 互 动 评论 等 数据 。 学 术 社 交 网 
站 是 指 通 过 互联 网 帮助 科研 工作 者 进行 学 术 人 研究 相关 
的 沟通 交流 的 网 站 平台 ,与 一 般 的 社交 网 站 不 同 ,学 术 
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社交 网 站 以 学 术 交流 和 学 术 合作 为 目的 。 目 前 国外 比 
较 著名 的 学 术 社 交 平 台 有 ResearchGate'””| 、Acade- 
mia™ 等 ,国内 有 学 者 网 .小木 虫 等 。 此 外 ,学 术 成 
果 中 的 合 著 关 系 也 可 作为 学 者 社交 数据 的 有 效 补充 。 
2.2 ”数据 预 处 理 及 涉及 的 关键 技术 

学 者 画像 的 数据 多 源 异 构 ,需要 对 这 些 原始 数据 
进行 清洗 ,并 对 数据 进行 有 效 的 融合 ,使 之 转化 为 适用 
于 构建 专家 学 者 画像 模型 的 数据 。 学 者 画像 数据 预 处 
理 一 般 包含 以 下 三 个 步 又 :数据 清洗 信息 抽取 和 数据 
融合 。 近 年 来 ,学 者 画像 研究 中 对 数据 预 处 理 有 一 些 
新 的 探索 ,本 文 从 实践 应 用 角度 出 发 ,总 结 了 预 处 理 步 
又 中 的 方法 技术 以 及 一 些 最 新 的 工具 。 
首先 ,需要 清洗 原始 数据 ,解决 数据 缺失 数据 元 
祭 的 问题 。 对 于 数据 缺失 可 使 用 搜索 引擎 检索 或 增加 
其 俩 数据 源 等 途径 来 补充 ,如 二 Yao 等 针对 没有 学 者 
六 页 的 研究 人 员 , 从 Wikipedia 中 提取 其 个 人 信息 ; 


MO Bravo 等 选择 从 DBIP 中 提取 出 版 物 数据 来 丰富 原 
始 枫 大 学 研究 人 员 数 据 59 。 对 于 数据 元 余 问题 ,需要 
删 队 重复 数据 ,确保 数据 的 唯一 性 。 

一 其 次 ,需要 从 文本 数据 中 抽取 所 需 的 字段 。 在 学 
多 人 主页 中 ,个 人 基本 信息 通常 是 非 结 构 化 的 文本 
数 也 , 因 此 需要 从 非 结 构 化 文本 中 抽取 信息 ,而 其 中 涉 
茂 测 关键 技术 为 命名 实体 识别 ( Named Entity Recogni- 
ENER) 。 命 名 实体 识别 技术 是 信息 抽取 的 重要 基 
浴 指 从 自然 语言 文本 中 抽取 出 指定 类 型 的 实体 。 


最 后 ,需要 整合 来 自 不 同 数据 源 的 数据 ,并 且 统一 
存储 在 数据 库 中 进行 管理 。 不 同 来 源 的 数据 对 专家 学 
者 的 描述 标准 各 异 ,因此 首先 需要 构建 统一 的 元 数据 
字段 表 , 将 不 同 来 源 的 数据 映射 到 统一 的 元 数据 字段 
中 ,实现 多 源 数据 的 融合 。 数 据 融合 中 存在 的 最 大 挑 
战 是 专家 实体 消 歧 问题 ,目前 已 经 有 一 些 研究 从 语义 
相似 度 '” 论文 的 特征 模型 相似 度 “! 以 及 结合 规则 和 
寺 征 模型 相似 度 ' 等 角度 进行 了 一 些 探 索 。 但 是 从 
现 有 人 研究 结果 来 看 ,专家 学 者 实体 消 歧 方法 在 准确 率 
上 还 有 一 定 的 提升 空间 ,未 来 可 利用 深度 学 习 方法 进 
一 步 提 升 实体 消 歧 效果 。 

2.3 ”学 者 标签 构造 

学 者 标签 构造 是 根据 学 者 的 特征 属性 ,对 学 者 数 
据 进行 挖掘 ,抽取 学 者 特征 并 用 统一 标准 的 短语 对 这 
些 特征 进行 标识 的 过 程 ,学 者 标签 具有 标准 化 、 短 文本 
化 .语义 化 、 专 一 性 等 特点 " 。 学 者 画像 的 标签 可 分 
为 个 人 属性 标签 .研究 兴趣 属性 标签 ,学术 能 力 标签 以 
及 学 者 社交 标签 四 大 类 别 。 

学 者 个 人 属性 标签 是 指 描述 个 人 基本 特征 的 标 
签 ,例如 姓名 .年龄 .职称 和 教育 背景 等 ,一 般 来 说 ,个 
人 属性 标签 稳定 性 较 好 , 短 时 间 内 不 会 有 较 大 变动 。 
个 人 属性 标签 的 来 源 主要 是 对 学 者 个 人 数据 的 信息 抽 
取 。 此 外 , 亦 可 根据 具体 的 任务 ,人 为 构造 一 些 个 人 属 
性 标签 , 如 学 术 年 龄 .机构 地 理 距离 等 '” 。 

研究 兴趣 属性 标签 是 学 者 标签 体系 的 核心 , 常 被 
用 于 专家 推荐 等 场景 。 研 究 兴趣 属性 的 标签 数量 内 


在 童 者 画像 领域 ,处 理学 者 个 人 数据 时 主要 抽取 的 实 
体 包括 姓名 、 职 务 .机 构 .邮箱 等 。 命 名 实体 识别 方法 
主要 有 基于 规则 学 习 的 方法 .基于 统计 机 器 学 习 的 方 
法 和 基于 深度 学 习 的 方法 。 早 期 的 命名 实体 识别 工作 
大 多 都 采用 手工 编写 词典 和 规则 的 方法 ,此 类 型 方法 
的 优点 是 准确 度 比 较 高 ,但 是 查 全 率 不 高 而 且 费 时 费 
力 , 语 言 依赖 度 很 大 ,可 拓展 性 不 高 。 基 于 统计 机 器 学 
习 的 方法 将 命名 实体 识别 看 作 一 个 分 类 问题 或 者 序列 
标注 问题 ,使 用 人 工 标注 分 类 的 语 料 训练 一 些 经 典 
的 机 器 学 习 分 类 器 如 HMM ME .CRF 和 SVM ,此 类 方 
法 的 难点 是 需要 大 规模 的 训练 语 料 以 及 如 何 构造 特征 
程 。 当 前 ,常用 深度 学 习 的 方法 从 学 者 主页 等 非 结 
构 化 文本 中 进行 实体 识别 ,该 方法 使 用 词 向 量 表示 词 
语 字 向 量 表示 字 , 利 用 深度 神经 网 络 解决 了 统计 机 器 
学 习 方 法 需要 构建 特征 工程 的 问题 ,并 取得 了 较 好 的 
效果 。 目 前 常用 的 命名 实体 识别 工具 有 中 国 科学 院 的 
NLPIR 系统 .斯坦福 大 学 的 stanza 和 哈尔滨 工业 大 
学 的 LIP 系统 ”等 。 


全 


容 等 没有 统一 的 标准 , 常 基于 不 同 的 应 用 场景 构建 不 
同 的 学 者 研究 兴趣 标签 。 研 究 兴 趣 标签 主要 来 自学 者 
的 科研 成 果 数据 ,最 直接 的 方法 是 将 学 者 发 表 论 文 的 
关键 词 当成 兴趣 标签 ,然而 关键 词 数 量 众 多 且 质 量 不 

,有 些 关键 词 也 并 不 能 说 明 学 者 的 兴趣 主题 ,所 以 部 
分 学 者 采用 LSI .LDA 与 Doc2Vec™* 等 算法 从 相关 
研究 成 果 中 挖 气 学 者 的 研究 兴趣 标签 。 亦 有 学 者 从 网 
络 上 不 同 数据 源 中 提取 表示 学 者 研究 兴趣 的 术语 ,并 
通过 Wikipedia 整合 表示 研究 兴趣 的 相关 术语 ,以 表示 
学 者 的 研究 兴趣 。 此 外 , 石 湘 等 “通过 梳理 学 者 研 
究 兴趣 识别 的 相关 文献 ,发 现 目前 的 学 者 兴趣 识别 研 
究 在 词汇 主题 层面 已 经 比较 成 熟 ,未 来 的 研究 方向 主 
要 是 网 络 层面 的 研究 兴趣 识别 。 

学 者 学 术 能 力 标签 亦 是 学 者 画像 标签 体系 的 重要 
组 成 部 分 。 学 者 的 学 术 能 力 可 以 从 学 者 的 学 术 成 果 质 
量 和 学 术 影 响 力 两 个 方面 来 反映 。 其 中 ,学 术 成 果 的 
质量 可 以 用 论文 发 表 期 刊 的 级 别 .主持 基金 的 级 别 .所 
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属 机 构 权 威 度 等 指标 来 表示 。 学 者 的 学 术 影 响 力 常用 
h 指数 及 g 指数 等 衍生 指数 来 表示 ”| 。 

学 者 关系 标签 主要 来 自 科 研 社交 数据 和 科研 成 果 
数据 。 科 研 社交 数据 是 科研 人 员 在 使 用 学 术 社 交 平台 
时 产生 的 数据 ,常见 的 一 些 学 术 社 交 网 站 有 国外 的 
ResearchGate .Academic. edu 和 国内 的 科研 之 友 、 学 者 
网 等 。 此 类 网 站 会 提供 关注 的 学 者 .提问 和 回答 的 问 

ee 此 外 ,可 以 从 学 者 的 论文 等 科研 成 果 
合 著 关系 中 ,获取 学 者 的 合作 关系 网 络 。 
2.4 学 者 画像 可 视 化 分 析 

学 者 画像 可 视 化 指 的 是 将 之 前 构建 的 大 量 不 同 种 

类 不 同 权重 的 学 者 画像 标签 用 图 形 等 形式 呈现 出 来 ， 
其 能 够 直观 清晰 地 展现 和 分 析 专 家 学 者 的 各 类 属性 。 
其 申 , 构 建 用 户 信息 的 标签 云 是 一 种 常用 的 可 视 化 方 
法 < 玉 方 法 可 以 根据 不 同 标签 的 权重 ， 用 不 同 大 小 的 标 
签 词 构建 词 云 ， 将 用 户 的 信息 形象 直观 地 呈现 出 来 。 
斑 狼 已 有 很 多 成 熟 的 工具 可 用 于 实现 用 户 标签 的 可 视 
人 3 WordArt tagCloud 、 Taguli5 、 Tagxe-do'™} 等 。 此 
外 ,对 于 学 者 专家 丰富 的 科研 成 果 数 据 也 可 以 用 可 视 
他 的 方法 进行 分 析 。 有 学 者 总 结 了 几 十 种 现 有 的 数据 
二 疯 化 工具 、 技术 以 及 用 于 分 析 学 术 数 据 的 系统 ,例如 
合围 Pajek .Gephi 等 社会 网 络 可 视 化 工具 可 以 对 学 者 
的 祝 作 关系 .引用 关系 或 者 关注 关系 进行 可 视 化 展示 
和 神 区 划分 等 分 析 , 或 使 用 党 常见 统计 图 表 如 柱状 图 和 
ee 时 间 和 学 者 的 研究 
RA AD EE 


3 学 者 画 像 的 应 用 研究 


3， 1 专家 推荐 
研究 兴趣 是 学 者 最 重要 的 属性 特征 之 一 ,通过 学 


的 科研 合作 者 推荐 的 相关 研究 。 这 些 研究 主要 从 文 
献 . 专 利 以 及 社交 媒体 等 渠道 采集 学 者 的 学 术 兴 趣 、 学 
术 能 力 .合作 网 络 "” 等 信息 ,以 构建 学 者 画像 ,再 通过 
融合 学 者 多 个 维度 特征 的 相似 度 进行 科研 合作 者 
推荐 。 
3.2 学术 资源 推荐 

学 术 资 源 信息 推荐 是 图 情 领域 的 重要 研究 问题 ， 
基于 学 者 画像 进行 学 术 资 源 信息 推荐 是 当前 重要 的 手 
段 之 一 。 此 类 推荐 在 图 书馆 领域 有 较 多 应 用 ,通过 将 
学 者 画像 的 兴趣 ,行为 等 特征 与 图 书 的 内 容 匹配 来 进 
行 图 书 资源 推荐 。 有 学 者 利用 用 户 画 像 方法 和 技术 ， 
构建 读者 的 个 人 画像 与 群体 画像 ,并 综合 两 者 所 反映 
出 的 读者 借阅 行为 特征 ,实现 图 书 的 个 性 化 推荐 |。 
此 后 一 些 研究 尝试 融合 更 丰富 的 互联 网 数据 ,如 刘海 
鸥 等 ”提出 大 数据 时 代 下 基于 学 者 画 像 的 个 性 化 学 
习 资 源 推荐 服务 ,结合 研究 人 员 的 基本 信息 ,研究 兴趣 
以 及 社交 互动 数据 为 其 提供 动态 的 个 性 化 资源 推荐 。 
随 着 学 术 社 交 媒 体 的 不 断 兴起 ,学 术 社 交 数 据 日 益 丰 
富 , 基 于 学 术 社 交 数 据 构建 学 术 新 媒体 用 户 画 像 以 及 
基于 用 户 画 像 的 学 术 新 媒体 信息 精准 推荐 模型 研究 亦 
取得 一 定 的 进展 。 
3.3 学 者 科研 能 力 评价 

学 者 画像 技术 亦 被 应 用 于 评估 学 者 过 去 的 学 术 能 
力 和 预测 其 未 来 的 潜在 能 力 。 学 者 的 学 术 能 力 是 各 大 
高 等 教育 机 构 .研究 中 心 和 企业 进行 人 才 招 聘 和 资助 
决策 时 主要 考虑 的 指标 ,因此 对 其 进行 客观 准确 的 评 
价 十 分 重要 。 如 埋 旭 等 以 计算 机 领域 为 例 ,提出 了 一 
种 基于 用 户 画 像 技术 的 学 者 能 力 指 数 计算 及 学 者 排名 
方法 '" 。 熊 回 香 等 将 科研 能 力 分 为 学 术 成 果 质 量 和 
学 者 的 学 术 影 响 力 两 部 分 ,利用 一 种 权重 主题 模型 表 


Cd 


者 画像 中 的 研究 兴趣 等 标签 ,并 结合 相似 度 计算 等 算 


示 学 者 的 科研 能 。M. Lee 等 提出 了 研究 人 员 


法 ,可 以 实现 相关 领域 专家 与 科研 合作 者 推荐 。 在 领 
域 专家 推荐 方面 ,R，Thiagarajan 等 通过 使 用 基于 本 体 
的 扩散 激活 网 络 (Spreading Activation Networks ) 计算 用 
户 画像 之 间 的 相似 度 ,解决 了 专家 发 现 问题 ” 。 胡 承 
芳 等 ”提出 了 基于 画像 技术 的 澜 湄 水 资源 合作 领域 
专家 库 系 统 的 设计 思路 ,通过 构建 基于 时 空 属性 的 人 
才 画 像 模型 ,实现 了 基于 澜 湄 合作 需求 的 人 才智 能 推 
荐 功能 。L. M.De Campos 等 ”通过 对 专家 文本 信息 
进行 聚 类 来 构建 概要 用 户 画 像 并 提取 专家 感 兴趣 的 不 
同 隐藏 主题 ,基于 此 实现 了 专家 推荐 等 应 用 。 
此 外 ,基于 学 术 偏 好 的 科研 合作 者 推荐 是 委 
像 的 男 一 重要 应 用 。 近 年 来 出 现 了 不 少 基 于 学 者 画像 


Re a 这 些 模 : 型 可 以 衡量 定性 和 定量 绩效 、 研 

人 员 影 响 力 和 增长 潜力 ,从 多 个 角度 评估 研究 人 员 
的 下 讽 , 进 加 从 们 瑟 高 研究 能 力 。 学 术 能 力作 为 学 者 
画像 的 重要 维度 之 一 ,可 以 通过 学 者 画像 的 学 术 能 力 
等 标签 对 学 者 的 科研 能 力 进行 评价 。 


4 目前 研究 面临 的 挑战 


目前 已 经 有 一 批 研 究 从 概念 、 模 型 构建 .关键 技术 
以 及 应 用 等 方面 对 学 者 画像 进行 了 探索 ,这 些 研 究 成 
果 为 学 者 画像 的 后 续 相 关 研 究 提 供 了 一 定 的 理论 和 实 
践 基础 。 随 着 开放 科学 运动 的 兴起 ,多 源 异 构 的 科学 
大 数据 为 学 者 画像 的 构建 提供 了 丰富 的 数据 基础 , 同 
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时 也 对 学 者 画像 研究 带 来 了 更 大 的 挑战 。 学 者 画像 研 
究 面 临 的 挑战 主要 包括 多 源 数据 获取 与 融合 难度 大 、 
动态 更 新 研究 困难 以 及 评价 研究 匮乏 等 方面 。 

4.1 多 源 数据 获取 与 融合 难度 大 

伴随 着 互联 网 的 发 展 产生 了 海量 的 数据 ,使 得 构 
建 基 于 多 源 异 构 数据 ,精准 丰富 的 学 者 画像 成 为 可 能 
但 是 如 何 从 海量 的 互联 网 网 页 中 筛选 出 所 需 学 者 网 
页 ,并 实时 动态 地 抓 取 和 人 入 库 ,是 学 者 画像 面临 的 挑战 
之 一 。 目 前 常用 的 方法 是 先 使 用 学 者 姓名 和 机 构 在 搜 
索引 擎 中 检索 ,再 根据 规则 对 检索 结果 进行 筛选 ,然而 
该 方法 的 查 全 率 和 查 准 率 都 不 高 '% ,如 何 识别 出 所 需 
学 者 个 人 主页 仍 是 一 个 研究 难点 。 此 外 , 现 有 的 研究 
表明 存在 相当 一 部 分 比例 的 学 者 没有 主页 或 者 无 法 通 
过 仆 虫 或 搜索 引擎 找到 相关 的 学 者 主页 ,对 于 这 前 

全 六 者 的 个 人 信 | 息 需要 从 其 他 信息 源 获取 ,例如 学 术 
性 版 物 或 者 社交 平台 。 

数据 融合 是 学 者 画像 的 另 一 挑战 。 在 多 源 异 构 数 
据 融 合 过 程 中 ,存在 学 者 重 名 等 问题 ,需要 使 用 实体 消 
睦 等 技术 进行 解决 。 目前 数据 融合 相关 研究 主要 采用 
起 Ni 器 学 习 、 基 于 图 与 基于 启发 式 规则 等 方法 ,其 中 
以 ED 名 学 习 算 法 为 主 ” 。 总 体 而 言 , 基 于 大 数据 的 学 
若 痢 像 研究 中 的 数据 获取 和 融合 技术 取得 了 一 定 的 进 
展 3 和 是 在 解决 大 规模 数据 的 时 间 复 杂 度 和 增 量 消 
战友 等 问题 上 还 存在 很 多 探索 空间 。 

4. 卫 学 者 画像 动态 更 新 研究 困难 

3 己 学 者 的 相关 信息 处 于 不 断 变化 中 ,为 了 保证 学 者 
画 物 的 准确 性 和 时 效 性 ,对 学 者 不 同 维度 的 属性 特征 
进行 动态 更 新 十 分 重要 。 然 而 ,目前 多 数学 者 画像 研 
究 都 忽略 了 动态 更 新 的 问题 。 学 者 画像 动态 更 新 可 能 
的 解决 方式 包含 两 类 ,分 别 是 基于 反馈 机 制 的 画像 更 
新 和 数据 驱动 的 画像 更 新 。 其 中 ,基于 反馈 机 制 的 学 
者 画像 更 新 一 般 采 用 人 工 的 方式 对 学 者 的 个 人 属性 等 
信息 进行 修改 与 完善 ,如 AMiner 学 者 画像 系统 采用 
“认领 -编辑 ”的 方式 鼓励 学 者 本 人 对 画像 信息 进行 
手动 修改 和 补充 ""。 这 种 方式 可 以 确保 更 新 信息 的 
准确 性 ,但 是 对 于 大 规模 的 学 者 画像 而 言 ,更 新 效率 太 
低 。 数 据 驱 动 的 学 者 画像 更 新 一 般 采 用 自动 化 方式 更 
新 学 者 的 兴趣 属性 、 学 术 能 力 属性 等 信息 。 这 种 基于 
科研 成 果 数 据 的 自动 化 更 新 技术 需要 解决 实时 数据 搜 
集 .构建 高 效 的 触发 机 制 和 更 新 机 制 等 问题 “I。 总 体 
来 看 ,学 者 画像 的 动态 更 新 研究 需要 在 学 者 画像 的 构 


建 和 应 用 研究 基础 上 ,投入 大 量 的 人 力 ,存在 一 定 的 技 
术 门 槛 ,同时 需要 较 长 的 研究 周期 ,因此 目前 学 者 画像 
动态 更 新 的 相关 研究 较为 缺乏 。 
4.3 学 者 画像 评价 研究 匮乏 

目前 关于 学 者 画像 的 研究 大 多 是 关注 如 何 构建 学 
者 画像 ,对 多 源 异 构 数 据 融 合 、 信 息 抽取 、 标 签 组 织 
权重 计算 等 流程 进行 创新 , 却 少 有 研究 从 真实 性 .时效 
性 和 准确 性 等 方面 对 已 构建 的 学 者 画像 模型 进行 科学 
客观 的 评价 。 目 前 仅 有 少量 研究 对 构建 的 模型 进行 理 
论 层面 的 评述 “或 针对 某 一 领域 举例 说 明 学 者 画像 
的 应 用 情况 并 进行 主观 评价 “ ,缺少 基于 大 规模 数据 
或 者 科学 客观 的 测试 样本 的 评价 研究 ,这 会 影响 学 者 
画像 模型 的 通用 性 , 且 不 利于 学 者 画像 模型 的 改进 。 
学 者 画像 评价 研究 匮乏 的 主要 原因 是 缺少 可 以 用 于 评 
价 的 数据 。 学 者 画像 评价 数据 包括 研究 人 员 手 动 标注 
的 数据 以 及 在 学 者 画像 应 用 过 程 中 产生 的 使 用 评价 、 
使 用 频率 .需求 匹配 程度 等 指标 数据 。 对 于 大 规模 的 
用 户 画 像 , 采 用 人 工 标注 的 方法 比较 困难 ,只 
人 广泛 的 应 用 后 获得 相关 指标 数据 ,才能 
者 画像 系统 的 评价 等 研究 。 


5 总 结 与 展望 


本 文 对 学 者 画像 的 构建 与 应 用 相关 研究 进行 了 系 
统 梳理 。 首 先 ,对 学 者 画像 的 相关 概念 进行 归纳 ,总结 
出 学 者 画像 是 从 海量 多 源 异 构 的 学 术 数据 中 ,抽取 出 
学 者 的 不 同 维度 的 属性 特征 ,并 进行 应 用 与 分 析 的 过 
程 ;其 次 ,梳理 了 学 者 画像 的 构建 流程 ,包含 数据 搜集 、 
数据 预 处 理 .学 者 标签 提取 以 及 学 者 画像 可 视 化 分 析 ， 
涉及 的 关键 技术 有 学 者 相关 实体 抽取 数据 融合 以 及 
可 视 化 技术 等 ;最 后 ,指出 学 者 画像 相关 研究 在 多 源 数 
据 获取 与 融合 .学 者 画像 动态 更 新 以 及 评价 机 制 等 方 
面 面 临 的 挑战 。 

针对 现 有 相关 研究 中 面临 的 挑战 ,有 以 下 研究 建 
议 :关于 学 者 画像 数据 获取 的 问题 ,可 以 使 用 先进 的 文 
本 分 类 算法 ,例如 XGBoost lightGBM 等 算法 ,从 搜索 引 
擎 返回 的 搜索 结果 中 识别 学 者 主页 ;对 于 学 者 主页 中 
言 息 的 抽取 可 使 用 一 些 大 规模 预 训练 模型 进行 文本 表 
示 ,利用 深度 神经 网 络 模型 实现 科研 人 员 信 息 的 抽取 ， 
这 种 不 依赖 人 工 特征 的 方法 可 以 保证 在 各 个 领域 有 较 
好 的 通用 性 。 此 外 如 今 有 一 些 开 放 的 科技 大 数据 平 
台 , 例 如: 中国 科学 院 知识 服务 平台 ”“、 粤 港 澳 科 技 资 


通过 深 
于 开展 学 
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述 [J]. 图 书 情报 工作 ,2022 ,66(20):73 -81. 


源 大 数据 服务 平台 ” 等 ,整合 了 学 者 个 人 数据 ,文献 
资源 数据 以 及 社交 媒体 数据 等 不 同类 型 的 数据 ,可 为 


学 者 画像 提供 数据 补充 。 在 数据 融合 方 盏 


1, 可 以 将 现 


有 的 学 术 知 识 图 谱 与 深度 学 习 等 方法 结合 ,以 提高 学 
者 相关 数据 的 融合 准确 率 。 对 于 学 者 画像 评价 数据 匮 
乏 问 题 ,可 以 通过 一 些 关 于 学 者 画像 相关 的 比赛 ,如 
2017 开放 学 术 精 准 画像 大 赛 .CCKS 2021 :AMiner 学 者 
画像 大 赛 '” ,获取 专家 学 者 画像 的 训练 数据 来 进行 评 
价 研 究 。 最 后 对 于 学 者 画像 动态 更 新 研究 不 足 的 问 
题 ,科研 人 员 应 该 加 强 学 者 画像 的 实践 研究 ,并 将 研究 
与 产业 紧密 结合 ,加 长 研究 的 周期 ,在 实践 研究 过 程 中 


获得 学 者 画像 的 使 用 和 反馈 数据 ,用 于 支撑 学 者 画像 
引 写 于 和 可 时 从 而 完 。 
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| Purpose/ Significance | This paper summarizes the research on scholar profile, and provides a refer- 
| Method/ Process | Through literature research and analysis, this paper discriminated 


summarized the construction process, key technologies and main applica- 


tions of the scholar profile, and analyzed the challenges faced by the current research. | Result/ Conclusion | The 


construction process of scholar profile includes data collection, data preprocessing, scholar label construction and vis- 


ual analysis. The main practical applications include expert recommendation, academic resource recommendation and 


scientific research ability evaluation. At present, there are still some challenges in related research, such as the diffi- 


culty of multi-source data acquisition and fusion, difficulties in research on dynamic update of the scholar profile and 


FFe lack of effective evaluation mechanism. 
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